TempoBench: Evaluando el razonamiento causal temporal en LLMs TempoBench revela: LLMs logran 96% en simulación pero <25% en causalidad mínima. Fine-tuning en este benchmark mejora el razonamiento causal. 2026-06-16 · 2 min